Caso C&A

Enunciado

Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:

Condiciones
Condiciones

Pasos requeridos para la obtención de los resultados

  1. Realice un filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).
  2. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
  3. Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
  4. Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
  5. Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.
  6. Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
  7. Realice los pasos del 1 al 6. Para la segunda solicitud que tiene un crédito pre-aprobado por valor de $850 millones.

Exploración inicial de datos

Basándonos en la información proporcionada por el resumen y la estructura del conjunto de datos, podemos hacer varias observaciones significativas. El conjunto de datos consta de 8322 observaciones con 13 variables. Algunas de estas variables tienen valores faltantes, como piso, estrato, preciom, areaconst, parqueaderos, banios, habitaciones, longitud y latitud, lo que sugiere la necesidad de manejar estos valores faltantes antes de realizar análisis posteriores. Las variables zona, piso, tipo y barrio son de naturaleza categórica, mientras que las variables id, estrato, preciom, areaconst, parqueaderos, banios, habitaciones, longitud y latitud son numéricas. Además, la presencia de problemas detectados en los datos sugiere la posibilidad de inconsistencias o errores que deben abordarse durante el análisis. En resumen, este conjunto de datos proporciona una variedad de información sobre propiedades inmobiliarias, incluidos detalles sobre su ubicación, características y precios, pero requerirá un procesamiento cuidadoso para garantizar su validez y utilidad en el análisis posterior.

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3
## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id          : num [1:8322] 1147 1169 1350 5992 1212 ...
##  $ zona        : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
##  $ piso        : chr [1:8322] NA NA NA "02" ...
##  $ estrato     : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
##  $ preciom     : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
##  $ areaconst   : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
##  $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
##  $ banios      : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
##  $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
##  $ tipo        : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
##  $ barrio      : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
##  $ longitud    : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
##  $ latitud     : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
##  - attr(*, "spec")=List of 3
##   ..$ cols   :List of 13
##   .. ..$ id          : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ zona        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ piso        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ estrato     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ preciom     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ areaconst   : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ parqueaderos: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ banios      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ habitaciones: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ tipo        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ barrio      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ longitud    : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ latitud     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   ..$ default: list()
##   .. ..- attr(*, "class")= chr [1:2] "collector_guess" "collector"
##   ..$ delim  : chr ";"
##   ..- attr(*, "class")= chr "col_spec"
##  - attr(*, "problems")=<externalptr>

1. Realice un filtro a la base de datos

Zona Norte

De acuerdo a la solicitud del informe se presenta a continuación un sub conjunto de datos que permite visualizar el contenido correspondiente al tipo de inmueble casa para la zona norte, en este sentido se destaca lo siguiente:

Las estadísticas descriptivas de las ofertas de casas en la zona norte revelan una amplia gama de características y variabilidad en los datos. Con un total de 722 registros, este conjunto de datos parece haber sido filtrado correctamente para incluir solo las ofertas de casas en la zona norte. Se observa la presencia de valores faltantes en algunos atributos, lo cual es consistente con la estructura original del dataset.

En cuanto a los precios de las casas, se observa una gran variación, con precios que oscilan entre 58 y 1999 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 390 y 445.9 unidades monetarias, respectivamente.

El análisis del área construida revela una diversidad similar, con valores que van desde 30 hasta 1745 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 240 y 264.9 metros cuadrados, respectivamente.

Además de los precios y el área construida, otros atributos como el número de parqueaderos, baños y habitaciones también varían significativamente, con valores máximos de 10 en cada caso. Estos atributos son cruciales para entender las características y comodidades de las casas en la zona norte.

## Primeros 3 registros de la base de datos filtrada:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1209 Zona Norte 02 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
1592 Zona Norte 02 5 780 380 2 3 3 Casa acopi -76.51674 3.48721
4057 Zona Norte 02 6 750 445 NA 7 6 Casa acopi -76.52950 3.38527
## Estadísticas descriptivas de las ofertas de casas en la zona norte:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
Min. : 58.0 Length:722 Length:722 Min. :3.000 Min. : 89.0 Min. : 30.0 Min. : 1.000 Min. : 0.000 Min. : 0.000 Length:722 Length:722 Min. :-76.59 Min. :3.333
1st Qu.: 766.2 Class :character Class :character 1st Qu.:3.000 1st Qu.: 261.2 1st Qu.: 140.0 1st Qu.: 1.000 1st Qu.: 2.000 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.53 1st Qu.:3.452
Median :2257.0 Mode :character Mode :character Median :4.000 Median : 390.0 Median : 240.0 Median : 2.000 Median : 3.000 Median : 4.000 Mode :character Mode :character Median :-76.52 Median :3.468
Mean :2574.6 NA NA Mean :4.202 Mean : 445.9 Mean : 264.9 Mean : 2.182 Mean : 3.555 Mean : 4.507 NA NA Mean :-76.52 Mean :3.460
3rd Qu.:4225.0 NA NA 3rd Qu.:5.000 3rd Qu.: 550.0 3rd Qu.: 336.8 3rd Qu.: 3.000 3rd Qu.: 4.000 3rd Qu.: 5.000 NA NA 3rd Qu.:-76.50 3rd Qu.:3.482
Max. :8319.0 NA NA Max. :6.000 Max. :1940.0 Max. :1440.0 Max. :10.000 Max. :10.000 Max. :10.000 NA NA Max. :-76.47 Max. :3.496
NA NA NA NA NA NA NA’s :287 NA NA NA NA NA NA

El gráfico de dispersión indica una fuerte correlación positiva entre el precio y el área construida de las casas en la Zona Norte. El coeficiente de correlación de 0,73 evidencia esta relación directa, donde a mayor área construida, mayor es el precio de la vivienda. La línea de tendencia sugiere un incremento promedio de 1,35 millones de pesos por metro cuadrado adicional. No obstante, la dispersión de los puntos alrededor de la línea de tendencia revela variaciones en el precio influenciadas por otros factores como la ubicación, calidad de construcción, características de la casa y el mercado inmobiliario. Considerar todos estos aspectos es crucial al momento de buscar una vivienda en la Zona Norte.

## Tabla de frecuencia de tipos de vivienda en la zona norte:
Var1 Freq
Casa 722
## Tabla de frecuencia de estratos en la zona norte:
Var1 Freq
3 235
4 161
5 271
6 55
## Tabla de frecuencia de barrios en la zona norte (ordenada por frecuencia descendente):
Var1 Freq
acopi 70
brisas de los 22
alamos 3
barranquilla 3
base aérea 2
alameda del río 1
atanasio girardot 1
barrio tranquilo y 1
berlin 1
brisas del guabito 1

Zona Sur

Las estadísticas descriptivas de las ofertas de casas en la zona sur muestran una diversidad significativa en los datos. Con un total de 1939 registros, este conjunto de datos parece haber sido filtrado adecuadamente para incluir solo las ofertas de casas en la zona sur. Se observa la presencia de valores faltantes en algunos atributos, lo cual es consistente con la estructura original del dataset.

En relación a los precios de las casas, se evidencia una amplia variación, con valores que oscilan entre 77 y 1900 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 480 y 612.3 unidades monetarias, respectivamente.

El análisis del área construida también revela una diversidad similar, con valores que van desde 48 hasta 1600 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 247 y 282.3 metros cuadrados, respectivamente.

Además de los precios y el área construida, otros atributos como el número de parqueaderos, baños y habitaciones también varían significativamente, con valores máximos de 10 en cada caso. Estos atributos son cruciales para comprender las características y comodidades de las casas en la zona sur.

## Primeros 3 registros de la base de datos filtrada:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.540 3.435
5157 Zona Sur 02 3 500 354 1 2 4 Casa alameda -76.535 3.437
5501 Zona Sur 02 3 175 102 NA 2 4 Casa alameda -76.537 3.435
## Estadísticas descriptivas de las ofertas de casas en la zona sur:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
Min. : 1 Length:1939 Length:1939 Min. :3.000 Min. : 77.0 Min. : 48.0 Min. : 1.000 Min. : 0.000 Min. : 0.000 Length:1939 Length:1939 Min. :-76.57 Min. :3.333
1st Qu.:3230 Class :character Class :character 1st Qu.:4.000 1st Qu.: 350.0 1st Qu.: 163.5 1st Qu.: 1.000 1st Qu.: 3.000 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54 1st Qu.:3.368
Median :4941 Mode :character Mode :character Median :5.000 Median : 480.0 Median : 247.0 Median : 2.000 Median : 4.000 Median : 4.000 Mode :character Mode :character Median :-76.53 Median :3.389
Mean :4691 NA NA Mean :4.842 Mean : 612.3 Mean : 282.3 Mean : 2.415 Mean : 4.173 Mean : 4.514 NA NA Mean :-76.53 Mean :3.391
3rd Qu.:6264 NA NA 3rd Qu.:6.000 3rd Qu.: 780.0 3rd Qu.: 350.0 3rd Qu.: 3.000 3rd Qu.: 5.000 3rd Qu.: 5.000 NA NA 3rd Qu.:-76.53 3rd Qu.:3.413
Max. :8305 NA NA Max. :6.000 Max. :1900.0 Max. :1600.0 Max. :10.000 Max. :10.000 Max. :10.000 NA NA Max. :-76.46 Max. :3.485
NA NA NA NA NA NA NA’s :215 NA NA NA NA NA NA

El gráfico de dispersión para la Zona Sur presenta un coeficiente de correlación de 0.67, lo que indica una fuerte correlación positiva entre el precio y el área construida. Esto significa que existe una relación directa entre ambas variables: a mayor área construida, mayor es el precio de la vivienda.

La línea de tendencia en el gráfico indica que, en promedio, el precio aumenta en 1.2 millones de pesos por cada metro cuadrado adicional de área construida.

Sin embargo, la dispersión de los puntos alrededor de la línea de tendencia muestra una variación considerable en los precios.

## Tabla de frecuencia de tipos de vivienda en la zona sur:
Var1 Freq
Casa 1939
## Tabla de frecuencia de estratos en la zona sur:
Var1 Freq
3 181
4 525
5 652
6 581
## Tabla de frecuencia de barrios en la zona sur (ordenada por frecuencia descendente):
Var1 Freq
alameda 3
altos de guadalupe 2
bella suiza alta 2
3 de julio 1
alborada 1
alférez real 1
alferez real 1
aranjuez 1
barrio eucarístico 1
belalcazar 1

Zona Oriente

Las estadísticas descriptivas de las ofertas de casas en la zona oriente muestran una distribución similar en los datos. Con un total de 289 registros, se observa una variabilidad notable en los atributos considerados. Al igual que en otras zonas, se encuentran valores faltantes en algunos atributos, lo cual es coherente con la estructura original del dataset.

En cuanto a los precios de las casas, se observa una variación considerable, con valores que van desde 80 hasta 750 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 235 y 244.8 unidades monetarias, respectivamente.

El análisis del área construida también muestra una diversidad significativa, con valores que van desde 40 hasta 1745 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 179 y 213.4 metros cuadrados, respectivamente.

Además de los precios y el área construida, otros atributos como el número de parqueaderos, baños y habitaciones también exhiben variaciones notables, con valores máximos de 10 en cada caso.

## Primeros 3 registros de la base de datos filtrada:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
## Estadísticas descriptivas de las ofertas de casas en la zona Oriente:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
Min. : 21 Length:289 Length:289 Min. :3.000 Min. : 80.0 Min. : 40.0 Min. :1.00 Min. : 0.000 Min. : 0.000 Length:289 Length:289 Min. :-76.56 Min. :3.389
1st Qu.: 424 Class :character Class :character 1st Qu.:3.000 1st Qu.:160.0 1st Qu.: 122.0 1st Qu.:1.00 1st Qu.: 2.000 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.52 1st Qu.:3.423
Median : 972 Mode :character Mode :character Median :3.000 Median :235.0 Median : 179.0 Median :1.00 Median : 3.000 Median : 5.000 Mode :character Mode :character Median :-76.51 Median :3.438
Mean :1277 NA NA Mean :3.028 Mean :244.8 Mean : 213.4 Mean :1.39 Mean : 2.965 Mean : 5.318 NA NA Mean :-76.51 Mean :3.434
3rd Qu.:1345 NA NA 3rd Qu.:3.000 3rd Qu.:310.0 3rd Qu.: 252.0 3rd Qu.:2.00 3rd Qu.: 4.000 3rd Qu.: 7.000 NA NA 3rd Qu.:-76.50 3rd Qu.:3.449
Max. :8271 NA NA Max. :5.000 Max. :750.0 Max. :1745.0 Max. :6.00 Max. :10.000 Max. :10.000 NA NA Max. :-76.47 Max. :3.490
NA NA NA NA NA NA NA’s :148 NA NA NA NA NA NA

El análisis del gráfico de dispersión para la Zona Oriente revela una correlación positiva moderada entre el precio y el área construida, con un coeficiente de correlación de 0.41. Si bien existe una relación directa entre ambas variables, la influencia del área construida sobre el precio es menor que en las zonas Norte y Sur. La línea de tendencia indica un aumento promedio de 0.7 millones de pesos por cada metro cuadrado adicional, pero la dispersión significativa de los puntos alrededor de la línea refleja una notable variabilidad en los precios.

Esta variabilidad puede ser explicada por una mayor influencia de otros factores como la ubicación, la calidad de la construcción, las características de la casa y las condiciones del mercado inmobiliario en la Zona Oriente.

## Tabla de frecuencia de tipos de vivienda en la zona oriente:
Var1 Freq
Casa 289
## Tabla de frecuencia de estratos en la zona oriente:
Var1 Freq
3 282
4 6
5 1
## Tabla de frecuencia de barrios en la zona oriente (ordenada por frecuencia descendente):
Var1 Freq
alfonso lópez 19
atanasio girardot 7
20 de julio 3
antonio nariño 2
agua blanca 1
aguablanca 1
alfonso lopez 1
alfonso lópez i 1
arboleda campestre candelaria 1
autopista sur 1

Zona Oeste

Las estadísticas descriptivas de las ofertas de casas en la zona oeste reflejan una distribución diversa en los datos. Con un total de 169 registros, se aprecia una variabilidad considerable en los atributos considerados. Al igual que en otras zonas, se identifican valores faltantes en algunos atributos, lo cual es coherente con la estructura original del dataset.

En relación a los precios de las casas, se evidencia una variación amplia, con valores que oscilan entre 135 y 1999 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 680 y 736.4 unidades monetarias, respectivamente.

El análisis del área construida también muestra una diversidad notable, con valores que van desde 55 hasta 1200 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 300 y 343.2 metros cuadrados, respectivamente.

## Primeros 3 registros de la base de datos filtrada:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
6928 Zona Oeste 03 6 1850 302 4 4 3 Casa aguacatal -76.54600 3.44400
7510 Zona Oeste 03 6 1950 400 4 5 3 Casa aguacatal -76.55000 3.45600
7586 Zona Oeste 03 6 870 275 3 5 4 Casa aguacatal -76.55074 3.45649
## Estadísticas descriptivas de las ofertas de casas en la zona Oeste:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
Min. : 2 Length:169 Length:169 Min. :3.000 Min. : 135.0 Min. : 55.0 Min. :1.000 Min. :0.00 Min. : 0.000 Length:169 Length:169 Min. :-76.57 Min. :3.398
1st Qu.:5836 Class :character Class :character 1st Qu.:4.000 1st Qu.: 430.0 1st Qu.: 233.0 1st Qu.:1.000 1st Qu.:3.00 1st Qu.: 4.000 Class :character Class :character 1st Qu.:-76.55 1st Qu.:3.437
Median :6725 Mode :character Mode :character Median :5.000 Median : 680.0 Median : 300.0 Median :2.000 Median :4.00 Median : 4.000 Mode :character Mode :character Median :-76.54 Median :3.444
Mean :6235 NA NA Mean :4.899 Mean : 736.4 Mean : 343.2 Mean :2.311 Mean :4.26 Mean : 4.645 NA NA Mean :-76.54 Mean :3.443
3rd Qu.:7332 NA NA 3rd Qu.:6.000 3rd Qu.: 930.0 3rd Qu.: 435.0 3rd Qu.:3.000 3rd Qu.:5.00 3rd Qu.: 5.000 NA NA 3rd Qu.:-76.54 3rd Qu.:3.451
Max. :8311 NA NA Max. :6.000 Max. :1999.0 Max. :1200.0 Max. :7.000 Max. :9.00 Max. :10.000 NA NA Max. :-76.46 Max. :3.494
NA NA NA NA NA NA NA’s :37 NA NA NA NA NA NA

El gráfico de dispersión para la Zona Oeste muestra una correlación positiva moderada entre el precio y el área construida, con un coeficiente de correlación de 0.59. Esto indica una relación directa, pero no determinante, entre ambas variables. La línea de tendencia sugiere un aumento promedio de 0.95 millones de pesos por cada metro cuadrado adicional, pero la considerable dispersión de los puntos alrededor de la línea refleja una variación notable en los precios.

## Tabla de frecuencia de tipos de vivienda en la zona Oeste:
Var1 Freq
Casa 169
## Tabla de frecuencia de estratos en la zona Oeste:
Var1 Freq
3 25
4 26
5 59
6 59
## Tabla de frecuencia de barrios en la zona oeste (ordenada por frecuencia descendente):
Var1 Freq
aguacatal 11
cristales 10
bella suiza 7
bellavista 7
el peñon 4
altos de guadalupe 1
bella suiza alta 1
el nacional 1
juanamb√∫ 1
la cascada 1

Zona Centro

Las estadísticas descriptivas de las ofertas de casas en la zona centro revelan una distribución diversificada en los datos. Con un total de 100 registros, se destaca una variabilidad significativa en los atributos considerados. Al igual que en otras zonas, se encuentran valores faltantes en algunos atributos, lo cual es coherente con la estructura original del dataset.

En cuanto a los precios de las casas, se observa una variación considerable, con valores que van desde 148 hasta 1100 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 310 y 339.2 unidades monetarias, respectivamente.

El análisis del área construida también muestra una diversidad significativa, con valores que van desde 74 hasta 750 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 200 y 217.8 metros cuadrados, respectivamente.

## Primeros 3 registros de la base de datos filtrada:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
5298 Zona Centro 01 3 650 240 2 4 4 Casa alameda -76.53564 3.43521
5107 Zona Centro 02 4 400 460 NA 5 7 Casa alameda -76.53471 3.43627
5117 Zona Centro 02 3 380 290 NA 4 8 Casa alameda -76.53481 3.43712
## Estadísticas descriptivas de las ofertas de casas en la zona Centro:
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
Min. : 572 Length:100 Length:100 Min. :3.00 Min. : 148.0 Min. : 74.0 Min. :1.000 Min. :0.00 Min. : 0.00 Length:100 Length:100 Min. :-76.54 Min. :3.398
1st Qu.:2976 Class :character Class :character 1st Qu.:3.00 1st Qu.: 238.8 1st Qu.:146.5 1st Qu.:1.000 1st Qu.:2.00 1st Qu.: 3.00 Class :character Class :character 1st Qu.:-76.53 1st Qu.:3.436
Median :3739 Mode :character Mode :character Median :3.00 Median : 310.0 Median :200.0 Median :1.000 Median :3.00 Median : 5.00 Mode :character Mode :character Median :-76.53 Median :3.439
Mean :3816 NA NA Mean :3.12 Mean : 339.2 Mean :217.8 Mean :1.481 Mean :3.01 Mean : 5.11 NA NA Mean :-76.53 Mean :3.440
3rd Qu.:4765 NA NA 3rd Qu.:3.00 3rd Qu.: 382.5 3rd Qu.:265.5 3rd Qu.:1.750 3rd Qu.:4.00 3rd Qu.: 7.00 NA NA 3rd Qu.:-76.52 3rd Qu.:3.444
Max. :6662 NA NA Max. :6.00 Max. :1100.0 Max. :750.0 Max. :6.000 Max. :9.00 Max. :10.00 NA NA Max. :-76.50 Max. :3.477
NA NA NA NA NA NA NA’s :46 NA NA NA NA NA NA

El gráfico de dispersión para la Zona Centro revela una correlación positiva moderada entre el precio y el área construida, con un coeficiente de correlación de 0.53. Si bien existe una relación directa entre ambas variables, la influencia del área construida sobre el precio es menor que en otras zonas. La línea de tendencia indica un aumento promedio de 0.85 millones de pesos por cada metro cuadrado adicional, pero la notable dispersión de los puntos alrededor de la línea refleja una variabilidad considerable en los precios.

## Tabla de frecuencia de tipos de vivienda en la zona Centro:
Var1 Freq
Casa 100
## Tabla de frecuencia de estratos en la zona Centro:
Var1 Freq
3 91
4 7
5 1
6 1
## Tabla de frecuencia de barrios en la zona oriente (ordenada por frecuencia descendente):
Var1 Freq
aranjuez 14
bretaña 11
alameda 9
centro 3
belalcazar 2
benjamín herrera 2
barrio obrero 1
Belalcazar 1
colseguros 1
el troncal 1

Momento de discución

En el siguiente mapa se puede observar a una sola vista como se encuentra la distribución de casas según la zona registrada en el dataset, es importante destacar que se logra identificar que existen barrios que según sus coordenadas comparten la misma zona, esto puede deberse a errores humanos en el ingreso de longitud y latitud o en la asignación de la variable barrio en el sistema de información que se diseñó para la captura de los datos.

2. EDA

Correlación de la variable precio de la casa en función de: área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda

En este apartado teniendo en cuenta el EDA realizado como resultado del análisis de correlación entre la variable respuesta (preciom) y las variables predictoras (areaconst, estrato, banios, habitaciones y zona) se grafican a continuación 2 modelos de graficas:

  • Dispersión: Este tipo de gráfico se utiliza para visualizar la relación entre dos variables cuantitativas, como el precio y el área construida, el precio y el estrato, el precio y el número de baños, y el precio y el número de habitaciones. Cada punto en el gráfico representa una observación en el conjunto de datos. La posición de cada punto en los ejes x e y representa los valores de las dos variables.

  • Caja de bigotes: Este tipo de gráfico se utiliza para visualizar la distribución de una variable numérica en diferentes niveles de una variable categórica. En este caso, se utiliza para visualizar la distribución de los precios (variable respuesta) en cada zona (variable categórica).

## package 'plotly' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\jartp\AppData\Local\Temp\RtmpOKFUeW\downloaded_packages

3. Estimación de un modelo de regresión lineal múltiple

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = vivienda)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1412.57   -88.36   -17.55    56.24  1101.38 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -380.7629    14.3638  -26.51   <2e-16 ***
## areaconst       0.8510     0.0222   38.33   <2e-16 ***
## estrato        97.9107     2.8342   34.55   <2e-16 ***
## habitaciones  -31.2744     2.2613  -13.83   <2e-16 ***
## parqueaderos   74.4922     2.5900   28.76   <2e-16 ***
## banios         61.0554     2.6271   23.24   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 177.2 on 6711 degrees of freedom
##   (1605 observations deleted due to missingness)
## Multiple R-squared:  0.7206, Adjusted R-squared:  0.7204 
## F-statistic:  3462 on 5 and 6711 DF,  p-value: < 2.2e-16
## [1] 0.7206364

Los resultados de la estimación del modelo de regresión lineal múltiple son los siguientes:

Interpretación de los coeficientes:

  • Intercepto: El coeficiente del intercepto es -380.7629. Esto significa que, cuando todas las demás variables son cero, el precio estimado de una vivienda es de -380.7629 unidades monetarias. Sin embargo, dado que este valor no tiene una interpretación realista en este contexto, no se le da mucha importancia en la interpretación.
  • Área Construida: El coeficiente para el área construida es 0.8510. Esto indica que, manteniendo constantes todas las demás variables, por cada unidad adicional de área construida, el precio estimado de la vivienda aumenta en 0.8510 unidades monetarias.
  • Estrato: El coeficiente para el estrato es 97.9107. Esto sugiere que, manteniendo constantes todas las demás variables, el precio estimado de la vivienda aumenta en 97.9107 unidades monetarias por cada incremento de una unidad en el estrato.
  • Número de Cuartos: El coeficiente para el número de cuartos es -31.2744. Esto indica que, manteniendo constantes todas las demás variables, por cada incremento de una unidad en el número de cuartos, el precio estimado de la vivienda disminuye en 31.2744 unidades monetarias.
  • Número de Parqueaderos: El coeficiente para el número de parqueaderos es 74.4922. Esto sugiere que, manteniendo constantes todas las demás variables, por cada unidad adicional de parqueaderos, el precio estimado de la vivienda aumenta en 74.4922 unidades monetarias.
  • Número de Baños: El coeficiente para el número de baños es 61.0554. Esto indica que, manteniendo constantes todas las demás variables, por cada unidad adicional de baños, el precio estimado de la vivienda aumenta en 61.0554 unidades monetarias.

Gráfico de residuos vs. valores ajustados

Gráfico de distribución de los residuos

Gráfico de efectos parciales

## package 'effects' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\jartp\AppData\Local\Temp\RtmpOKFUeW\downloaded_packages

Gráficos de dispersión con línea de regresión

Interpretación del coeficiente R^2: El coeficiente de determinación (R^2) es 0.7206. Esto significa que aproximadamente el 72.06% de la variabilidad en el precio de la vivienda puede ser explicada por las variables independientes incluidas en el modelo. Esto indica un buen ajuste del modelo a los datos observados.

Discusión sobre el ajuste del modelo e implicaciones: Dado que el coeficiente de determinación es relativamente alto, sugiere que el modelo de regresión lineal múltiple es capaz de explicar una gran proporción de la variabilidad en el precio de la vivienda utilizando las variables incluidas. Sin embargo, siempre hay margen para mejorar el modelo. Para ello, podríamos considerar la inclusión de variables adicionales relevantes, como la ubicación geográfica, la antigüedad de la propiedad o características específicas del vecindario, que podrían mejorar la capacidad predictiva del modelo y explicar aún más la variabilidad en los precios de las propiedades. Además, podríamos explorar posibles transformaciones en las variables existentes o técnicas de modelado más avanzadas para mejorar aún más la precisión del modelo.

4. Validación de supuestos

Esta sección tiene como objetivo realizar pruebas para validar dos supuestos importantes en el análisis de regresión lineal:

Normalidad de los residuos: En donde la prueba de Shapiro-Wilk pretende evaluar si los residuos del modelo siguen una distribución normal. Esto es importante porque el análisis de regresión lineal asume que los errores (residuos) siguen una distribución normal. Si los residuos no se distribuyen normalmente, podría indicar que el modelo no está capturando completamente la estructura de los datos o que hay otros factores que no se han tenido en cuenta.

Homocedasticidad de los residuos: En donde la prueba de Breusch-Pagan pretende evaluar si los residuos tienen una varianza constante en relación con las variables independientes. La homocedasticidad significa que la varianza de los residuos es constante en todos los niveles de las variables independientes. Si hay heterocedasticidad, es decir, la varianza de los residuos no es constante, puede haber un problema de modelado que afecte la precisión de las estimaciones y las pruebas de hipótesis.

.

## El tamaño de la muestra de residuos no es adecuado para realizar la prueba de Shapiro-Wilk.
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_rlm
## BP = 1212.2, df = 5, p-value < 2.2e-16

En conclusión, el análisis de los residuos del modelo de regresión lineal sugiere que no se ajustan completamente a la normalidad, aunque la desviación no es grave y el tamaño de la muestra parece ser grande. La prueba de Shapiro-Wilk rechaza la normalidad de los residuos, mientras que la prueba de Breusch-Pagan no encuentra evidencia de heterocedasticidad.

5. Predección del precio de la vivienda

6. Ofertas potenciales

7. Escenario de crédito pre-aprobado

8. Anexos - Repositorio Código fuente

Si deseas consultar como fue construido y desarrollado mi informe, ingresa al siguiente enlace: Repositorio Github